Prise de décision en temps-réel pour des POMDP de grande taille

نویسندگان

  • Sébastien Paquet
  • Ludovic Tobin
  • Brahim Chaib-draa
چکیده

RÉSUMÉ. Cet article présente une méthode d’approximation pour les processus décisionnels de Markov partiellement observables (POMDP) qui est basée sur une recherche en profondeur pour la planification dans un environnement temps-réel dynamique. L’idée de base de notre approche, appelée RTBSS (Real-Time Belief Space Search), est d’éviter de calculer des politiques complètes pour des POMDPs. Cette approche est spécialement utile pour des environnements temps-réel où l’espace d’états est trop grand pour que l’on puisse considérer les algorithmes de résolution hors-lignes des POMDPs. À cet effet, nous proposons une approche en-ligne pour calculer à chaque cycle, l’action qui maximise l’utilité espérée de l’agent. Nous commençons par présenter tout le formalisme à la base de notre méthode. Par la suite, nous présentons les résultats expérimentaux obtenus sur trois environnements : les environnements Tag et RockSample ainsi que la simulation de la RoboCupRescue. Les résultats obtenus montrent la force de notre approche, particulièrement en ce qui concerne la rapidité d’exécution et l’adaptabilité à de nouveaux environnements. Mentionnons par ailleurs que cette approche a été implémentée avec succès pour la compétition mondiale de la RoboCupRescue en 2004 à Lisbonne au Portugal où nous nous sommes classés en deuxième position.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Une nouvelle approche pour la gestion de la QdS dans les SGBD temps réel

RÉSUMÉ. Ces dernières années, les besoins en termes de données et de services temps réel se sont beaucoup accrus dans un grand nombre d’applications. Traditionnellement, ces applications sont gérées par des systèmes temps réel, bien adaptés pour la prise en compte des contraintes temporelles. Cependant, ils ne sont pas satisfaisants pour la gestion efficace de grands volumes de données. Les sys...

متن کامل

Des systèmes multiagents anytime pour la conception de systèmes d'aide à la décision

RÉSUMÉ. Dans un système d’aide à la décision (S.A.D.), un système informatique doit permettre au décideur de prendre la meilleure décision possible, souvent avant une échéance donnée. Nous considérons dans ce papier les S.A.D. qui reposent sur une modélisation multiagent. L’objectif de notre travail est d’étendre la notion de système multiagent à un environnement contraint par le temps, c’est-à...

متن کامل

Apprentissage de la structure des processus de décision markoviens factorisés pour l’apprentissage par renforcement

Des algorithmes de planification récents issus de la théorie de la décision sont capables de trouver des politiques optimales ou quasi-optimales sur des problèmes de grande taille en utilisant le formalisme des processus de décision markoviens factorisés (FMDPs). Cependant, ces algorithmes ont besoin d’une connaissance a priori de la structure des problèmes qu’ils résolvent. Dans cette contribu...

متن کامل

Modélisation intégrée de la dynamique des systèmes d'information décisionnels

Résumé. Les systèmes d’information décisionnels (SID) sont des systèmes d’information (SI) qui ont pour objectif de faciliter la prise de décision à partir d’information résultant de processus complexes de dérivation et de préparation des données de SI sources. Ces processus sont généralement peu modélisés et sont directement implantés avec des logiciels spécifiques au cours des projets décisio...

متن کامل

Un Modèle Générique de Garbage Collection pour les Eéditeurs Collaboratifs Basé sur l'Approche TO dans les environnements P2P et mobiles

Résumé— L’approche de transformée opérationnelle (TO) est l'une des meilleurs techniques qui permet de supporter la collaboration dans les environnements mobiles et distribués. Les éditeurs collaborative en temps réel utilisent cette technique pour la réconciliation des données modifiées simultanément par plusieurs utilisateurs. Cependant, l’approche TO utilise un log qui peut atteindre une tai...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Revue d'Intelligence Artificielle

دوره 20  شماره 

صفحات  -

تاریخ انتشار 2006